摘要:在自动驾驶和其他智能工业应用的时期,多机构增强学习变得越来越重要。同时使用量子力学的固有特性出现了一种有希望的新方法来增强学习,从而大大降低了模型的可训练参数。然而,基于梯度的多代理量子增强学习方法 - 十种必须与贫瘠的高原斗争,使它们无法匹配经典方法的性能。虽然无梯度的量子加强学习方法可以减轻其中一些挑战,但它们也不能免疫贫瘠的高原带来的困难。我们建立在一种存在梯度游离量子增强学习的方法基础上,并提出了三种遗传变异,并使用差异量子电路进行多代理增强量的量子,并使用进化优化。我们评估了硬币游戏环境中的遗传变异,并将它们与经典方法进行比较。我们表明,与具有相似数量的可训练参数的神经网络相比,我们的变分量子电路方法的性能明显更好。与较大的神经网络相比,我们的方法使用97归档结果。参数减少了88%。
![arxiv:2311.05546V4 [QUANT-PH] 2025年1月2日PDF文件第1页](/bimg/6/697d558349005a82cfb2864d7a6c26af924aba16.webp)
![arxiv:2311.05546V4 [QUANT-PH] 2025年1月2日PDF文件第2页](/bimg/e/e2f96bc677f38416c74fd4eba034842019d80826.webp)
![arxiv:2311.05546V4 [QUANT-PH] 2025年1月2日PDF文件第3页](/bimg/0/0c7cb346c551e5e3817d70baf8102ee326036c1d.webp)
![arxiv:2311.05546V4 [QUANT-PH] 2025年1月2日PDF文件第4页](/bimg/7/76a4a9a2ecd5831701b1da01a9737c6afab6debd.webp)
![arxiv:2311.05546V4 [QUANT-PH] 2025年1月2日PDF文件第5页](/bimg/2/2a49672a26f3431e516d26660f56038487bb204f.webp)
